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摘 要 : 


[ 目的 /意义 ] 从 实体 关系 抽取 视角 出 发 ,将 单一 语言 情境 下 的 知识 获取 任务 扩展 到 跨 语言 情境 ,提升 低 资 源 语言 
的 关系 抽取 效果 。|[ 方 法 /过 程 | 提 出 一 种 跨 语言 对 抗 关 系 抽取 (Cross-Lingual Adversarial Relation Extraction, 
CLARE) 框架 ,将 跨 语 言 关 系 抽取 分 解 为 平行 语 料 获 取 和 对 抗 适 应 关系 抽取 两 个 子 模块 。 通 过 词典 扩展 或 自学 习 
方法 将 源 语言 关系 抽取 数据 集 转换 为 目标 语言 数据 集 ,在 此 基础 上 利用 对 抗 特 征 适 应 将 源 语言 的 特征 表示 迁移 
给 目标 语言 ,再 利用 训练 得 到 的 目标 语言 关系 抽取 网 络 对 目标 语言 进行 关系 分 类 。|[ 结果 /结论 ] 将 本 文 方法 应 用 
到 以 ACE2005 多 语言 数据 集 为 基础 的 英语 - 中文、 中 文 -英文 两 种 跨 语 言 关系 抽取 任务 上 ,最 优 模型 的 Macro-Fl 


领域 的 应 用 具有 重要 意义 。 
词 : 跨 语 言 信 息 抽 取 ”实体 关系 抽取 


言 实体 关系 抽取 的 效果 。 研 究 结 果 对 于 改进 跨 语 言 ， 


值 分 别 为 0.880 1 和 0.842 2。 实 验 结 果 表 明 本 文 提 出 的 跨 语 言 对 抗 关系 抽 取 CLARE 框架 能 显著 提升 低 资 源 语 
情境 下 的 关系 抽取 模型 以 及 促进 实体 关系 抽取 研究 在 情报 学 


深度 学 习 ”生成 对 抗 网 络 


全 互联 网 技术 发 展 日 新 月 异 ,人 们 需要 处 理 的 数据 
最 版 增 , 领 域 交叉 现象 越 来 越 突出 ,如 何 快速 高 效 地 从 
这 路 开放 领域 的 文本 中 抽取 出 有 效 信息 ,成 为 摆 在 人 
们 击 前 的 重要 问题 。 实 体 关系 抽取 " ( Entity Relation 
Ex ction ERE) ,又 称 为 关系 抽取 (Relation Extraction , 
RE) ,是 指 通过 对 文本 信息 建 模 ,自动 抽取 出 句子 中 实 
体 对 之 间 的 语义 关系 ,提取 有 效 的 语义 知识 。 例 如 , 句 
子 “Bill_Gates is the founder of Microsoft. ”中 包含 一 个 
实体 对 ( Bill. Gates, Microsoft. ) , 这 两 个 实体 对 之 间 的 
关系 为 Founder。 实 体 关系 抽取 被 广泛 应 用 于 文本 摘 
要 站、 自动 问答 "机 器 翻译 ,语义 标注 以 及 知识 图 谱 
构建 "等 任务 中 。 

过 去 大 多 数 关系 抽取 模型 关注 单 语言 数据 (以 标 
注资 源 丰 富 的 英文 文本 为 主 ) ,而 对 于 标注 语 料 相 对 稀 
缺 的 语言 (如 日 语 、 法 语 等 ) ,由 于 手工 标注 数据 集 获 


取 昂 贵 旦 费时、 远程 监督 数据 集 标注 噪音 难以 排除 , 难 
以 建立 有 效 的 关系 抽取 模型 。 人 研究 构建 跨 语言 关系 抽 
取 的 意义 在 于 :中 由 于 各 语种 知识 分 布 不 均匀 ,通过 数 
据 集 扩展 可 以 有 效 地 弥补 目标 语言 数据 集 的 不 足 , 实 
现 低 资 源 语言 的 实体 关系 抽取 ;@ 可 以 充分 利用 多 语 
种 在 知识 表达 方式 上 的 互补 性 ,增加 知识 的 覆盖 率 和 
共享 度 。 跨 语言 关系 抽取 可 以 应 用 于 跨 语言 的 信息 检 
R .机 器 翻译 ,知识 问答 以 及 跨 语言 知识 图 谱 的 构建 
等 任务 中 。 由 于 其 广泛 的 应 用 前 景 , 跨 语言 实体 关系 
抽取 正 得 到 学 术 界 及 工业 界 的 广泛 重视 。 

在 上 述 背 景 下 ,本 文 将 跨 语言 平行 语 料 获 取 与 跨 
语言 关系 抽取 任务 相 结 合 , 提 出 一 种 跨 语言 情境 下 基 
于 生成 对 抗 的 实体 关系 抽取 框架 ,并 将 其 应 用 于 “ 源 语 
言 英语 -目标 语言 中 文 " 和“ 源 语言 中 文 - 目标 语言 
英语 ”两 种 不 同 的 跨 语言 任务 ,以 期 检验 模型 对 于 提升 
目标 语言 实体 关系 抽取 的 效果 。 
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2 研究 现状 


按照 研究 侧重 点 的 不 同 ,本 文 从 传统 的 实体 关系 
抽取 研究 、 基 于 深度 学 习 的 实体 关系 抽取 人 研究 和 跨 语 
言 实体 关系 抽取 研究 三 方面 六 述 研究 现状 。 
2.1 传统 的 实体 关系 抽取 研究 

经 典 的 实体 关系 抽取 方法 主要 分 为 有 监督 OE M 
督 . 弱 监督 和 无 监督 4 类 。 有 监督 的 实体 关系 抽取 方 
法 将 关系 抽取 任务 当 作 分 类 问题 ,根据 训练 数据 设计 
有 效 的 特征 ,从 而 学 习 各 种 分 类 模型 ,然后 使 用 训练 好 
的 分 类 器 预测 关系 ,主要 分 为 基于 核 函 数 的 方法 .基于 
逻辑 回归 的 方法 .基于 句法 解析 增强 的 方法 和 基于 条 
件 随机 场 的 方法 。S，Zhao 等 四 将 分 词句 法 解析 和 深 
魔 依存 关系 分 析 三 个 级 别 的 语法 信息 用 核 函 数 表示 ， 
以 虹 克 服 在 某 个 单一 级 别 上 的 错误 ,并 使 用 支持 向 量 
BECSVMO 在 数据 集 上 进行 方法 的 评估 。N，Kambhat- 
Ia 针 使 用 最 大 炳 模型 ,将 来 自 文本 的 各 种 词汇 ,句法 和 
请 鸡 特 征 结合 在 一 起 ,用 于 语义 关系 抽取 ,同时 证 明了 
大 旱 信 息 特征 的 使 用 有 助 于 提高 模型 表现 。S，Miller 
等 DD 运用 增强 的 句法 解析 合并 表示 句法 和 语义 信息 ， 
远古 建立 集成 模型 ,解决 了 线性 模型 句子 处 理 过 程 中 
链 吏 累积 传播 的 问题 。A，Culotta 等 "提出 一 种 集成 
相 弹 学 习 模 型 ,该 模型 能 够 使 用 线性 链条 件 随机 场 学 
习 宝 下 文 关系 和 关联 关系 模式 来 抽取 实体 之 间 的 关 
将 抽取 任务 (已 有 的 关系 模式 ) 和 挖掘 任务 ( 隐 
藏 撤 关系 模式 ) 集 成 到 一 起 。 上 述 4 类 有 监督 方法 需 
要 季 工 标注 大 量 的 训练 数据 ,浪费 时 间 精 力 ,因此 人 们 
继而 提出 了 基于 半 监 督 . 弱 监督 和 无 监督 的 关系 抽取 
方法 来 解决 人 工 标注 语 料 问 题 。 半 监督 的 学 习 方法 主 
要 采用 Bootstrapping 进行 关系 抽取 ,该 方法 首先 手工 
设 定 若干 种 子 实例 ,然后 迭代 地 从 数据 中 抽取 关系 对 
应 的 关系 模板 和 更 多 的 实例 。S， Brin ”提出 DIPRE 
方案 ,将 互联 网 作为 训练 集 , 计 算 每 个 模板 的 特殊 性 ， 
筛选 比较 适合 的 模板 用 于 下 一 轮 的 实体 关系 抽取 。 弱 
监督 的 学 习 方 法 涵盖 了 试图 通过 较 弱 的 监督 来 构建 巴 
测 模型 的 各 种 研究 。 例 如 , M，Craven 等 "在 研究 从 
文本 中 抽取 结构 化 数据 建立 生物 学 知识 库 的 过 程 中 
首次 提出 了 弱 监督 机 器 学 习 思想 。 无 监督 的 学 习 方法 
则 是 利用 有 相同 语义 关系 的 实体 对 进行 关系 抽取 。 例 
如 ,T. Hasegawa l YE ACL 会 议 上 首次 提出 了 一 种 
无 监督 的 命名 实体 之 间 的 关系 抽取 方法 。 
2.2 ”基于 深度 学 习 的 实体 关系 抽取 研究 

经 典 方法 存在 特征 提取 误差 传播 问题 , 极 大 地 影 


响 实体 关系 抽取 的 效果 。 随 着 近 些 年 深度 学 习 的 崛 
起 ,学 者 们 逐渐 将 深度 学 习 应 用 到 实体 关系 抽取 的 任 
务 中 。 根 据 数据 集 标注 量 级 的 差异 ,基于 深度 学 习 的 
实体 关系 抽取 任务 可 分 为 有 监督 和 远程 监督 两 类 ,其 
中 有 监督 的 实体 关系 抽取 方法 是 近年 来 关系 抽取 的 研 
究 热点 。 该 方法 能 避免 经 典 方法 中 人 工 特征 选择 等 步 
又 ,减少 并 改善 特征 抽取 过 程 中 的 误差 积累 问题 。 根 
据 实体 识别 及 关系 分 类 两 个 子 任务 完成 的 先后 顺序 不 
同 ,基于 深度 学 习 的 有 监督 实体 关系 抽取 方法 可 以 分 
为 流水 线 ( Pipeline ) 方法 和 联合 学 习 (Joint Learning) Jr 
法 。R. Socher 等 ”提出 使 用 递归 神经 网 络 (RNN ) 来 
解决 实体 关系 抽取 问题 。 该 方法 对 句子 进行 了 句法 解 
析 ,能 够 有 效 地 考虑 句子 的 句法 结构 信息 ,但 同时 该 方 
法 无 法 很 好 地 考虑 两 个 实体 在 句子 中 的 位 置 和 语义 信 
E. D. J. Zeng 等 ”提出 利用 词 向 量 和 词 的 位 置 向 量 
作为 卷 积 神经 网 络 (CNN ) 的 输入 ,引入 了 实体 和 其 他 
词 的 距离 信息 ,可 以 很 好 地 把 句子 中 实体 的 信息 考虑 
到 关系 抽取 中 。 随 后 ,C. N. D. Santors 等 "提出 了 一 
种 新 的 损失 函数 的 CNN ,采用 新 的 损失 函数 能 够 有 效 
提高 不 同 实体 关系 类 型 的 区 分 度 。A. Katiyar 4$ H 
次 将 注意 力 机 制 Attention 与 循环 神经 网 络 Bi-LSTM 一 
起 用 于 联合 提取 实体 和 分 类 关系 ,神经 网 络 模型 在 有 
监督 领域 的 拓展 皆 取 得 不 错 效果 。 同 时 基于 深度 学 习 
的 远程 监督 实体 关系 抽取 方法 因 具 有 缓解 远程 监督 数 
据 集中 错误 标签 和 特征 抽取 误差 传播 问题 的 能 力 而 成 
为 研究 热点 ,主要 基础 方法 包括 CNN RNN ,LSTM 等 网 
络 结构 。 近 年 来 ,学 者 们 在 基础 方法 之 上 提出 了 多 种 
改进 ,如 :D. J. Zeng 等 "在 远程 监督 上 采用 分 段 最 大 
池 化 的 分 段 卷 积 神经 网 络 (PCNN) ,通过 分 段 最 大 池 化 
层 来 自动 学 习 相 关 特 征 ;Y. K. Lin 等 ' 在 远程 监督 
上 提出 将 CNN 和 注意 力 机 制 结合 起 来 使 用 ,使 用 CNN 
作为 句子 编码 器 ,并 使 用 句子 级 别 的 注意 机 制 。 此 外 ， 
G. L. 五 等 中 提出 在 PCNN 和 Attention 的 基础 上 添加 
实体 的 描述 信息 来 辅助 学 习 实 体 的 表示 ,X，Ren 等 
提出 的 COTYPE EII Y. Y. Huang" 提出 的 残 差 网 
络 皆 增强 了 实体 关系 抽取 的 效果 。 

随 着 实体 关系 抽取 方法 的 不 断 优化 ,学 者 们 逐渐 
将 关系 抽取 任务 应 用 到 学 术 、 农 业 、 医 学 等 不 同 领 域 
中 。 蒋 婷 等 ”利用 学 术 文 献 的 结构 特点 ,在 本 体 概念 
抽取 的 基础 上 ,对 文献 中 概念 的 类 型 进行 分 类 ; 俞 正 
等 "提出 基于 依存 句法 分 析 的 中 文 专利 术语 选取 方 
法 ,能 够 有 效 提高 中 文 专利 术语 抽取 的 准确 性 ; 吴 粤 敏 
等 ”使 用 农业 上 市 公司 年 报 数据 ,采用 基于 双重 注意 
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力 机 制 的 门 控 循环 单元 算法 研究 中 文 文本 关系 的 自动 
抽取 ; 朱 慧 等 ”构建 了 面向 汉语 领域 的 术语 非 分 类 关 
系 抽 取 模 型 ,引入 共 现 分 析 、 结 构 分 析 、 模 板 构建 .逻辑 
推理 等 方法 ,为 术语 非 分 类 关系 抽取 提供 了 新 的 思路 ; 
SK ^g 7^ 选取 词 嵌 人 表示 级 别 .词汇 级 别 和 语法 级 别 
的 三 种 类 型 特征 ,主要 探讨 词 租 入 表示 特征 在 关系 抽 
取 中 的 作用 ; 陈 果 等 ”通过 融合 领域 元 知识 和 词 租 入 
向 量 类 别 ,使 用 少量 领域 知识 对 心血 管 等 细 分 领域 进 
行 实体 关系 抽取 。 
2.3 ” 跨 语 言 实体 关系 抽取 研究 

近年 来 ,针对 跨 语言 关系 抽取 的 方法 大 多 以 单 语 
言 关 系 抽取 为 基础 ,使 用 机 器 翻译 工具 、 转 移 学 习 方 法 
以 及 计算 机 视觉 中 的 生成 对 抗 网 络 , 将 多 种 语言 的 信 
已 联系 起 来 。 现 有 的 大 多 数 研 究 都 试图 利用 平行 数据 


语言 实体 关系 抽取 ,针对 跨 语言 实体 关系 抽取 的 研究 
则 大 多 采用 机 器 翻译 获得 平行 语 料 ,研究 者 们 为 了 能 
够 在 翻译 后 的 实例 中 找到 对 应 实体 的 位 置 , 提 出 基于 
混合 匹配 原则 的 实体 对 齐 、 启 发 式 的 实体 对 齐 等 ,但 仍 
然 无 法 避免 实体 对 齐 错误 的 问题 ,从 而 影响 跨 语言 实 
体 关 系 抽 取 模 型 的 表现 。 鉴 于 此 ,本 文 尝试 使 用 词典 
扩展 或 自学 习 法 得 到 的 共享 空间 双语 词典 获取 跨 语言 
平行 语 料 , 再 引入 生成 对 抗 网 络 “ (GAN) ,通过 对 搞 
特征 适应 将 源 语言 的 特征 表示 迁移 给 目标 语言 进行 关 
系 抽取 。 为 了 检验 模型 的 有 效 性 ,我 们 将 本 文 方法 应 
到 以 ACE2005 中 英 双语 数据 集 为 基础 的 英语 - 中 
文 . 中 文 - 瑞 文 两 种 跨 语 言 关 系 抽 取 任 务 上 ,并 进一步 
探究 模型 的 各 个 模块 变化 对 关系 抽取 效果 的 影响 。 


3 ”研究 方法 


Cm 


或 基于 知识 的 系统 将 有 效 信息 从 标注 资源 丰富 的 语言 
转 殴 为 标注 语 料 相对 稀缺 的 语言 。L，H，Qian 4p" 
握 面 了 一 种 基于 伪 平 行 语料库 和 实体 对 齐 的 中 英文 关 
系 萄 类 的 双语 主动 学 习 模型 ,实验 结果 表明 用 于 关系 
众 强 的 双语 主动 学 习 明 显 优 于 单 语 主动 学 习 。S，Kim 
等 2 提出 了 一 种 使 用 平行 语料库 进行 关系 检测 的 跨 
语 届 注释 投影 策略 ,为 缺乏 标注 语 料 的 低 资 源 语言 建 
ED 关系 抽取 系统 。 胡 亚 楠 等 "为 了 充分 利用 多 种 
请 澡 之 间 的 互补 性 ,提出 一 种 双语 协同 训练 的 关系 分 


类 充 法 ,可 以 同时 提高 每 种 语言 的 关系 分 类 性 能 。M. 
Fatüqu 等 ”采用 基于 机 器 翻译 的 跨 语言 投影 法 进行 


多 器 言 开放 关系 抽取 , 它 通过 使 用 机 器 翻译 工具 将 源 
语言 翻译 成 英语 ,再 对 英语 句子 进行 关系 抽取 ,最 后 将 
关 需 短语 投影 回 源 语言 。P，Verga 等 ” 对 通用 模式 关 
系 抽取 的 范围 和 灵活 性 进一步 改进 ,尝试 采用 多 语言 
转移 学 习 进 行 多 语言 关系 抽取 ,但 是 这 些 工作 是 对 已 
存在 知识 库 的 语言 建立 模型 ,而 没有 完全 利用 文本 中 


3.1 研究 问题 

本 文 旨 在 探究 跨 语 言情 境 下 的 实体 关系 抽取 问 
题 , 即 在 目标 语言 标注 语 料 缺 乏 的 情况 下 ,通过 在 源 语 
言 和 目标 语言 之 间 建 立 桥梁 (机 品 翻 译 或 者 双语 词 
典 ) ,得 到 目标 语言 的 训练 语 料 , 再 运用 源 语言 和 目标 
语言 的 平行 语 料 信 息 训 练 跨 语 言 的 实体 关系 抽取 模 
型 ,得 到 目标 语言 上 的 关系 抽取 模型 。 假 定 源 语言 标 
注 训练 语 料 丰富 ,标注 样本 集 为 5, 其 中 每 个 样本 实例 
wu, ,实体 ei ,ey ewi,i= |1,…,n| ,两 个 
实体 之 间 的 关系 为 y; 目标 语言 标注 语 料 缺 乏 或 无 已 
标注 样本 ,输入 未 标注 样本 = (w, w, w}, PEA 
旨 在 利用 源 语 言 丰 富 的 标注 语 料 预 测 目标 语言 句子 中 
实体 。 fll e, 之 间 的 关系 。 针 对 跨 语言 实体 关系 抽取 ， 
本 文 深入 探究 以 下 问题 :中 在 跨 语言 关系 抽取 模型 中 ， 
模型 结构 对 于 关系 抽取 效果 是 否 有 显著 影响 ? DOES 
语言 对 抗 关系 抽取 模型 训练 过 程 中 ,如 何 使 用 共享 空 


S [w w, 


包含 的 语义 信息 。Y. K Lin 等 ”建立 了 多 语言 的 远 
程 监督 关系 抽取 数据 集 ,提出 基于 路 语言 注意 力 机 制 
的 神经 关系 抽取 模型 (MNRE ) , 它 为 不 同 语言 中 的 每 
个 句子 建立 句子 表示 ,并 利用 多 语言 注意 力 机 制 获取 
多 种 语言 数据 间 的 一 致 性 和 互补 性 。X. Z. Wang 
等 站 在 过 去 工作 的 基础 上 加 入 对 抗 策 略 ,提出 了 对 抗 
多 语言 神经 关系 抽取 模型 (AMNRE ) ,取得 了 较 好 的 模 
型 效果 。B. W. Zou 等 提出 一 种 特征 适应 的 方法 用 
于 跨 语 言 关系 分 类 ,首先 利用 机 器 翻译 获得 目标 语言 
数据 集 ,再 利用 生成 对 抗 网 络 将 源 语言 的 特征 表示 迁 
移 到 目标 语言 。 

值得 说 明 的 是 ,目前 的 研究 仍然 较 多 地 局 限于 单 


间 双 语词 向 量 对 词 散 入 初始 化 ? 词 戏 入 是 否 微调 对 模 
型 表现 有 哪些 影响 ?在 跨 语言 平行 语 料 获 取 模 块 ， 
如 何 合 理 地 确定 源 语言 和 目标 语言 双语 词典 的 规模 ? 
双语 词典 的 规模 是 否 越 大 越 好 ?” 由 在 蜂 语 言 实体 关系 
抽取 任务 中 ,如 何 合理 地 确定 源 语言 和 目标 语言 训练 
数据 的 规模 ?训练 数据 的 规模 是 否 越 大 越 好 ?与 有 
监督 的 目标 语言 实体 关系 抽取 模型 相 比 ,无 监督 模型 
的 表现 是 否 存 在 显著 差异 ? 
3.2 ”模型 描述 

针对 上 述 研究 问题 ,本 文 提出 结合 跨 语言 平行 语 
料 获 取 和 对 抗 适 应 关系 抽取 的 跨 语言 对 抗 关 系 抽取 框 
架 ( 见 图 1)。 该 框架 由 跨 语 言 平行 语 料 获取 (Cross- 
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Lingual Parallel Corpus Acquisition, CLPCA ) 模块 和 对 
抗 适 应 关系 抽取 (Adversarial Adaptation Relation Ex- 
traction, AARE) 模块 两 部 分 构成 。CLPCA 模块 通过 词 
典 扩展 或 自学 习 法 得 到 共享 空间 双语 词典 ,在 此 基础 
上 获取 跨 语 言 平 行 语 料 。AARE 模块 引入 生成 对 抗 网 
络 (CAN) , Tre RITU zi) T Sh f ds ( Source-Lan- 
guage Sentence Encoder , SSE ) 和 目标 语言 句子 编码 器 


Til 


| 跨 语 言 平行 语 料 获 到 模 块 (CLPCA) | 


词典 扩展 法 (有 监督 ) 


(Target-Language Sentence Encoder,TSE ) 分 别 学 习 源 语 
言 实例 和 上 述 获 得 的 目标 语言 实例 的 潜在 特征 表示 。 
其 次 ,将 它们 输入 判别 器 去 判别 其 是 来 自 源 语言 还 是 
目标 语言 ,通过 对 抗 特 征 适应 将 源 语言 的 特征 表示 迁 
移 给 目标 语言 。 最 后 ,利用 训练 得 到 的 目标 语言 关系 
抽取 网 络 对 目标 语言 实例 进行 关系 分 类 。 


CSLS a 
£ 厂 一 一 + 双语 词典 


一 > 共享 双语 词 向 量 


生成 器 G 


词典 扩展 法 〈 无 监督 ) 


源 语言 词 向 量 X 一 一 一 > WX 


D 1 
d 目标 语言 词 向 量 Y 共享 双语 词 向 量 
- 源 语言 源 语 言词 向 量 X er 了 CSS. gum 
om 相似 矩阵 M, 最 近邻 检索 
自学 习 法 (无 监督 ) nn wesana 
c 目标 语言 《更 新 优化 ) — y EEE 到 共享 双语 词 向 量 
© 相似 矩阵 M, 目标 语言 词 向 量 Y 
"Tr t (更 新 优化 ) 
e 对 搞 适 应 关系 抽取 模块 (AARE) e| 
N 共享 双语 词 向 量 3 
e | : LA — 
N 句子 (EN) =>; "a F3 
2 : iT, | | | | 
LE od 1 1 
x< xuB p 
词典 H et 

全 BEER ii rr 

c 有 
LE od | 

ea 句子 (ZH) um), 

Q irr, 

SA "T 
1 跨 语 言 对 抗 关 系 抽 取 (CLARE) 框架 


3.2.1 跨 语 言 平 行 语 料 获 取 模 块 

最 近 的 人 研究 表明 ,多 数 跨 语言 实体 关系 抽取 人 研究 
通过 机 器 翻译 的 方式 ,将 源 语言 翻译 成 目标 语言 获得 
平行 语 料 , 这 种 方式 获得 的 平行 语 料 可 能 由 于 实体 无 
法 对 齐 而 造成 实体 位 置信 息 错误 。 考 虑 到 实体 位 置信 


自学 习 法 应 用 于 双语 平行 语 料 的 获取 。 具 体 来 说 ,本 
文采 用 有 监督 的 词典 扩展 法 以 及 无 监督 的 词典 扩展 法 
和 自学 习 法 分 别 获 取 源 语言 和 目标 语言 在 共享 空间 中 
的 双语 词 向 量 及 双语 词典 ,再 利用 双语 词典 将 源 语言 
的 单词 翻译 成 目标 语言 ,并 将 源 语言 的 关系 标签 直接 


息 在 实体 关系 抽取 任务 中 的 重要 性 ,关系 实例 中 位 置 
信息 的 错误 传播 很 可 能 影响 关系 抽取 模型 的 表现 。 
A. Conneau 45772018 年 提出 基于 双语 词典 的 词典 扩 
展 法 进行 单词 翻译 ,M.，Artetxe 等 ' 引 提出 无 监督 的 自 
学 习 法 学 习 跨 语言 映射 词 向 量 , 受 其 工作 的 启发 ,在 跨 
语言 情境 下 的 实体 关系 抽取 中 ,我 们 将 词典 扩展 法 和 


映射 给 目标 语言 ,得 到 目标 语言 的 训练 数据 集 。 此 外 ， 
由 于 双语 词典 的 有 限 性 ,无 法 将 所 有 的 源 语言 单词 翻 
译 成 目标 语言 ,因此 获得 的 目标 语言 数据 集中 仍 包含 
少量 源 语言 单词 。 为 了 更 好 地 学 习 源 语言 和 目标 语言 
实例 的 特征 表示 ,我 们 使 用 上 述 得 到 的 共享 空间 中 的 
双语 词 向 量 初 始 化 词 脱 入 。 
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449], EX 46, AIk. 跨 语 言情 境 下 基于 对 抗 的 实体 关系 抽取 模型 研究 [3]. 图 书 情报 工作 ,2020 ,64(17) :131 7144. 


(1) 词 典 扩 展 法 (有 监督 )。 首 先 通过 种 子 词典 学 
习 源 语言 和 目标 语言 词 向 量 之 间 的 正 交 性 矩阵 W, 将 
源 语言 和 目标 语言 映射 到 同一 向 量 空间 ,得 到 共享 空 
间 中 的 双语 词 癌 量 ;再 进行 词典 规约 ( Lexicon. Induc- 
tion) ” ,将 预 训练 好 的 源 语言 和 目标 语言 词 向 量 通过 
映射 矩阵 和 跨 领 域 相似 度 局 部 缩放 ( Cross-domain Sim- 
ilarity Local Scaling, CSLS) ?"' ,得 到 包含 更 多 单词 对 的 
双语 词典 。 有 监督 的 词典 扩展 法 主要 分 为 两 个 部 分 : 

一 是 正 交 性 映射 。 假 设 有 一 个 种 子 词典 D = dx, 
yi] (i=1,2,…,d) EP x, 为 源 语言 的 词 向 量 ,y, 为 
对 应 目标 语言 的 词 向 量 ,共有 d 个 单词 对 。 通 过 迭代 
训练 公式 (1) 得 到 W 为 正 交 和 矩阵 ,因此 可 以 保证 映射 


前 和 映射 后 的 两 个 词 向 量 之 间 的 夹 角 不 变 。 


L] 


s.t WW' 2I 公式 (1) 
( 本 文 使 用 FastText ^?! 300 维 的 源 语 言词 向 量 X 和 
Fiber Y. RUHGE SE PERSE WE WX 和 
映射 到 同一 个 词 向 量 空间 。 


fem 
( j 


CLE CSLS 。 当 源 语言 和 目标 语言 的 词 向 量 通过 
ENEKE W 映射 到 同一 空间 后 ,根据 最 近邻 检索 找 出 


miny = || Wx, — y; || ? 


MPS HEA P, EPRE F d 6] de AG S RES e nd 8] 


H 


EX 2 ui X e da EOE E lo FE tore 4p 
AROD HEU RELS 85 EHE XB IU RT RA 
CSES 方法 惩罚 这 种 枢纽 点 的 相似 度 分 数 。 对 于 映射 
到 岗 一 空间 中 的 两 个 词 向 量 * 和 y, 计 算 它们 之 间 的 
CSES 分 数 作为 两 个 词语 之 间 的 最 终 相似 度 分 数 ,如 公 
式 (2) 所 示 : 

CSLS(x,y) 22cos(x,y) —sim,(x) —sim,(y) 

公式 (2) 

和 公式 (2 ) 中 ,cos(x,y) 表示 两 词语 的 余弦 相似 
HE sim, (x) 和 simi(y) 分 别 表示 x 和 yy 与 其 在 同一 空间 
中 的 大 个 最 近邻 居 的 余弦 相似 度 均 值 ,作为 两 个 惩罚 
项 以 解决 高 维 空间 存在 的 枢纽 点 问题 。 

(2) 词 典 扩展 法 (无 监督 )。 上 述 有 监督 的 词典 扩 
慨 法 需要 学 习 一 个 种 子 词典 得 到 映射 矩阵 WW, 但 是 在 
大 多 数 情况 下 双语 种 子 词典 难以 获得 。 无 监督 的 词典 
扩展 法 能 够 在 没有 种 子 词典 的 情况 下 通过 对 抗 的 方式 
学 习 初 始 映射 矩阵 W, 并 通过 普 式 分 析 法 改进 该 映射 ， 
最 后 利用 CSLS 方法 得 到 双语 词典 。 无 监督 的 词典 扩 
展 法 主要 分 为 3 个 部 分 : 


一 是 领域 对 抗 。 假设 X= x uu, REY dy, 
sys) 分 别 为 源 语言 和 目标 语言 的 词 向 量 集 ,从 WX = 
| Wz, ,…, We, | 和 YY 中 通过 随机 采样 训练 判别 器 ,希望 
判别 器 能 够 尽 可 能 正确 判别 样本 来 源 于 WX 还 是 站， 
同时 训练 映射 矩阵 W 使 得 WX 和 Y 尽 可 能 相似 ,阻碍 
判别 器 做 出 正确 判别 。 

将 判别 器 参数 定义 为 9, , P, (source 21 | z) 表 示 
判别 器 判别 向 量 z 属于 源 语 言词 向 量 映射 的 概率 。 判 
别 需 的 损失 函数 如 公式 (3 ) 所 示 , 映 射 矩 阵 W 的 损失 
函数 如 公式 (4) 所 示 。 


L,(0, | W) = -二 X4 logP, ( source =1 | Wx) 


_1 Y. logP, (source =0 | y,) 公式 (3) 
m 月 


1 
L,(W|0,)- cu È ;-ı logP, (source 20 | Wx, ) 


公式 (4) 


按照 I Goodfellow 等 提出 的 生成 对 抗 网 络 " 的 标 
准 训练 过 程 训练 模型 ,对 于 每 一 个 输入 样本 ,通过 随机 
梯度 更 新 连续 训练 判别 器 和 映射 矩阵 W 来 最 小 化 损 
REZ L M Lyo 

ZEEE. APEVIA KIS EE W 虽 
然 具 有 较 好 的 表现 ,但 仍 与 有 监督 方法 有 一 定 差距 。 
对 抗 方法 试图 使 所 有 单词 对 齐 ,而 不 考虑 单词 的 频率 。 
但 是 ,低频 词 向 量 更 新 较 少 , 且 更 有 可 能 出 现在 每 个 语 
料 库 的 不 同上 下 文中 ,这 使 它们 更 难以 对 齐 。 因此 在 
线性 映射 的 假设 下 ,最 好 仅 使 用 高 频 单词 来 推断 全 局 
映射 。 

为 了 进一步 改进 学 到 的 映射 ,我 们 使 用 在 对 抗 训 
练 中 学 到 的 映射 矩 阵 W 来 构建 合成 词典 。 具 体 来 说 ， 
考虑 使 用 频率 最 高 的 单词 ,并 仅 保 留 彼此 最 近 的 邻居 
以 确保 获得 高 质量 的 词典 。 随 后 ,将 普 式 分 析 法 应 用 
于 此 生成 的 词典 中 ,考虑 到 用 该 算法 可 以 生成 更 准确 
的 词典 ,因此 迭代 地 应 用 此 方法 。 由 于 使 用 对 抗 训练 
获得 的 合成 词典 已 经 很 强大 ,在 进行 多 次 迭代 后 只 会 
观察 到 较 小 的 改进 。 

三 是 CSLS。 在 得 到 改进 的 映射 矩阵 W 后 ,将 双 
语词 向 量 映射 到 同一 空间 ,再 使 用 有 监督 词汇 扩展 法 
中 同样 的 CSLS 方法 得 到 更 完善 的 双语 词典 。 

(3 ) 自学 习 法 (无 监督 ) 。 假 设 给 定 词汇 表 中 所 有 
词语 间 的 相似 度 和 矩阵, 每 个 词语 的 相似 度 值 的 分 布 不 
同 , 且 不 同 语言 中 对 应 的 两 个 词语 应 具有 相同 的 分 布 。 
基于 这 一 假设 ,能 够 得 到 一 个 初始 的 匹配 词语 对 词典 


2 Ya logP, (source 21 |y) 
m » 
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D ,基于 该 词典 学 习 不 同 语言 词 向 量 间 的 映射 矩阵 , 进 
一 步 使 用 一 种 自学 习 方 法 迭代 地 优化 双语 词典 ,最 终 
得 到 最 优 的 映射 和 矩阵。 无 监督 的 自学 习 法 主要 分 为 3 
个 部 分 : 

一 是 构造 初始 解 。 由 于 词 向 量 和 矩阵 X BLZ 不 对 
齐 , 即 两 种 语言 词汇 表 中 对 应 的 词语 不 对 齐 且 词 向 量 
在 同一 维度 上 也 不 对 齐 , 因 此 两 种 语言 之 间 没 有 直接 
的 对 应 关系 。 首 先 构 造 两 个 替代 的 词 向 量 矩 阵 丸和 
Z' ,使 其 在 第 j 维 上 是 对 齐 的 , 即 满足 X., = Z EF 
替换 后 的 部 分 对 齐 的 两 种 语言 的 词 向 量 矩 阵 构造 初始 
双语 词典 。 为 得 到 替代 和 抢 阵 XURLZ' ,使 用 相似 性 矩阵 
来 代替 词 向 量 和 矩阵, 两 种 语言 的 相似 性 矩阵 如 公式 
(5) 所 示 ; 
< 一 M,-XX', M,-ZZ' 公式 (5) 
全 从 公式 (5 ) 可 知 ,M 和 M, 分 别 相当 于 词 向 量 矩 
FEX RIZ 中 行 和 列 的 全 排列 ,这 种 全 排列 能 够 用 以 寻 
找 两 种 语言 之 间 的 词典 , 即 能 够 通过 尝试 所 有 行 和 列 
部 同 的 索引 排列 来 寻找 M, 和 M, 之 间 的 最 佳 匹配 。 
为 于 避免 全 排列 过 程 出 现 组 合 爆 炸 问题 ,首先 对 相似 
性 五 阵 M, 和 Mi 的 每 一 行 中 的 值 进行 排序 ,作为 替代 
做 几 。 因 此 ,给 定 一 个 词语 及 其 在 排序 后 的 相似 性 矩 
阵 由 对 应 的 行 ,能 够 通过 最 近邻 检索 ( Nearest. Neighbor 
REeval) 号 在 另 一 种 语言 排序 后 的 相似 性 矩阵 中 找 
到 琶 对 应 的 翻译 。 最 终 该 过 程 得 到 的 两 个 替代 矩阵 
X 河 2Z' 作 为 自学 习 步骤 的 初始 解 。 

吧 一 是 自学 习 。 自 学 习 过 程 主要 包括 两 个 步 又 ,不 
断 重复 这 两 个 步骤 直至 模型 收敛 ,具体 步 又 如 下 ; 
-全 首先 通过 最 大 化 当前 双语 词典 D 中 不 同 语言 词语 
之 间 的 相似 度 D... 以 得 到 最 优 的 映射 矩阵 ,相似 度 如 
公式 (6) 所 示 。 在 公式 (6) 中 , 当 目 标语 言 的 第 j 个 词 
语 是 源 语言 第 i 个 词语 的 翻译 , 则 D, =1, 否 则 其 值 为 
0, 


Don = > D(X, Wy) © (Z W;)) 
公式 (6) 

再 根据 上 述 得 到 的 映射 矩阵 计算 词 向 量 相似 矩 
He ,进而 优化 当前 双语 词典 D。 

三 是 鲁 棒 性 改进 。 由 于 最 终 优 化 目标 与 初始 的 双 
语词 典 无 关 , 因 此 为 了 避免 算法 陷入 局 部 最 优 ,通过 构 
造 初始 解 作为 自学 习 过 程 的 初始 输入 ,能够 从 一 定 程 
度 上 缓解 局 部 最 优 问题 。 为 了 进一步 解决 该 问题 从 而 
提高 模型 的 鲁 棒 性 ,进一步 采用 以 下 改进 方式 : 

随机 词典 生成 :为 了 促进 生成 双语 词典 过 程 中 对 
搜索 空间 更 多 地 进行 探索 ,以 一 定 概率 p 随机 保留 相 


似 和 矩阵 中 的 部 分 元 素 , 并 将 其 余 元 素 设置 为 0 ,使 得 整 
个 的 双语 词典 生成 过 程 是 随机 的 。 在 训练 过 程 中 , 根 
据 目标 函数 的 优化 情况 不 断 增加 概率 p 的 值 以 找到 最 
优 的 参数 设置 。 

双向 词典 生成 : 当 基 于 源 语言 词语 搜索 与 之 对 应 
的 目标 语言 词语 从 而 生成 双语 词典 时 ,并 非 所 有 的 目 
标语 言词 语 最 终 都 能 出 现在 双语 词典 中 ,同时 有 些 词 
语 可 能 会 在 词典 中 重复 出 现 。 反 过 来 基于 目标 语言 词 
语 寻 找 对 应 的 源 语 言词 语 时 同样 存在 该 问题 。 为 充分 
利用 源 语 言 和 目标 语言 中 的 词语 ,将 分 别 从 上 述 两 个 
方向 生成 的 双语 词典 连接 起 来 ,消除 其 中 重复 的 词语 
对 以 形成 最 终 的 双语 词典 。 
3.2.2 对抗 适 应 关系 抽取 模块 

在 对 抗 适应 关系 抽取 模块 ,首先 运用 CLPCA 模块 
产生 的 双语 词典 对 源 语言 关系 抽取 数据 集 进行 翻译 ， 
得 到 目标 语言 数据 集 。B. W. Zou 等 2018 年 运用 
机 器 翻译 和 双语 实体 对 齐 获 取 平 行 语 料 , 并 引入 生成 
对 抗 网 络 进行 关系 抽取 ,考虑 到 机 器 翻译 后 的 双语 实 
体 对 齐 过 程 准确 率 较 低 ,因此 我 们 采用 词典 扩展 法 和 
自学 习 法 获取 双语 平行 语 料 , 再 通过 对 抗 特征 适应 进 
行 跨 语 言 的 实体 关系 抽取 。 具 体 来 说 , 先 利用 两 个 句 
子 编码 器 分 别 学 习 两 种 语言 实例 的 洪 在 特征 表示 ,并 
通过 对 抗 特征 适应 将 源 语 言 的 特征 表示 迁移 给 目标 语 
言 ,最 终 得 到 具有 语言 适应 性 的 目标 语言 关系 抽取 网 
络 对 目标 语言 进行 关系 预测 。 

如 图 1 所 示 , 对 抗 适 应 关系 抽取 模块 主要 由 两 部 
分 组 成 。 第 一 部 分 是 句子 编码 器 部 分 ,包括 源 语言 
子 编码 器 (SSE) 和 目标 语言 句子 编码 器 (TSE) , 主要 利 
用 CNN 或 LSTM 对 源 语言 和 词典 翻译 得 到 的 目标 语言 
实例 进行 特征 抽取 ,将 包含 实体 对 的 句子 实例 转换 成 
分 布 式 的 潜在 特征 表示 。 第 二 部 分 是 对 抗 训 练 部 分 ， 
将 句子 编码 器 SSE 和 TSE 作为 生成 器 ,生成 两 种 语言 
实例 的 特征 表示 作为 判别 器 D 的 输入 ,然后 迭代 训练 
判别 器 和 生成 器 。 判 别 器 尽 可 能 正确 地 判别 输入 的 特 
征 表示 来 源 于 哪 种 语言 ,生成 器 则 尽 可 能 生成 判别 器 
无 法 准确 分 辨 的 特征 表示 ,同时 保证 关系 分 类 尽量 准 
确 。 通 过 生成 器 和 判别 器 之 间 的 竞争 ,最 终 使 得 训练 
得 到 的 目标 语言 句子 编码 器 具有 语言 适应 性 。 以 下 进 
行 详细 论述 。 

(1) 句子 编码 器 。 我 们 以 CNN 网 络 结构 的 句子 编 
码 器 为 例 介绍 ,使 用 源 语言 关系 抽取 数据 集 构建 SSE， 
使 用 词典 翻译 得 到 的 目标 语言 关系 抽取 数据 集 构 建 
TSE ,具体 包括 以 下 3 层 : 
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一 是 嵌入 层 。 借 览 D. J. Zeng 等 "的 工作 ,首先 
构建 谋 入 层 用 实 值 向 量 来 编码 单词 .单词 位 置信 息 和 
实体 类 型 。 输 入 句子 表示 为 x = |w,,w,，,…,w,| ,使 用 
词 向 量 和 矩阵 W, e R^" 将 每 个 单词 初始 化 为 维度 为 
d, 的 实 值 向 量 , 其 中 了 表示 固定 大 小 的 词汇 表 。 由 于 
SSE 和 TSE 网 络 结构 相同 ,我 们 使 用 3. 2. 1 跨 语言 平 
行 语 料 获取 模块 得 到 的 双语 词 向 量 进行 初始 化 ,使 得 
来 自 不 同 语言 的 单词 被 映射 到 同一 特征 空间 中 。 

在 关系 抽取 任务 中 ,靠近 目标 实体 的 单词 通常 更 
能 够 决定 实体 对 之 间 的 关系 ,因此 为 了 捕捉 句子 中 每 
个 单词 与 两 个 实体 之 间 的 位 置信 息 ,我 们 将 单词 分 别 
到 头 实体 和 尾 实体 的 相对 距离 转换 为 实 值 向 量 作为 单 
词 的 位 置 蕨 入。 例如 ,在 句子 “Bill_Gates is the founder 
of;Microsoft. ”中 ,单词 “founder” $3 Sz [&" Bill. Gates " 
和 二 实体 *Microsof "的 相对 距离 分 别 为 3 和 2。 我 们 
使 用 位 置 向 量 和 矩阵 Ps e R “2 将 相对 距离 映射 为 两 个 
HERES d, 的 实 值 向 量 ,其 中 D 表示 相对 距离 集合 。 医 
攻 对 于 每 个 单词 , 均 能 够 获得 关于 两 个 实体 的 两 个 位 


此 外 ,为 了 能 够 反映 实体 类 型 与 实体 间 关 系 类 型 
并 辐 的 关系 ,我 们 对 句子 中 的 每 个 单词 加 入 两 个 实体 
的 贸 体 类 型 嵌入 ,使 用 向 量 和 矩阵 ET, e R “将 实体 类 
BUR uA HEROS d cé i nb E de Sc 
KARE. 

最 终 , 我 们 将 一 个 输入 句子 表示 成 一 个 向 量 序列 


w gw, uu, vn, | ,其 中 每 个 单词 的 嵌入 维度 为 d = 
Ed, * 2d, . 
OO 二 是 卷 积 层 。 在 编码 输入 句子 后 , 卷 积 层 使 用 多 
息 , 


个 卷 积 核 在 句子 上 滑动 来 提取 局 部 信 
窗口 的 输出 为 : 


第 i 个 滑动 


wet O 公式 (7) 

在 公式 (7) 中 ,w;_,,i; 定 义 为 第 i 个 窗口 内 w 个 单 
词 的 词 向 量 连接 ,We R^"? 是 卷 积 矩 阵 ,b e R^ 
偏 置 向 量 ,其 中 d, 表示 卷 积 核 的 数量 ,也 是 卷 积 层 的 
输出 维度 。 

三 是 最 大 池 化 层 。 我 们 利用 最 大 池 化 层 合并 卷 积 
层 提取 的 所 有 局 部 特征 ,并 应 用 激活 函数 tanh ,获得 固 
定 长 度 的 最 终 表 示 。 输 出 向 量 xe R" 的 第 j 个 元 素 为 : 
公式 (8) 

(2) 对 抗 训练 。 得 到 句子 编码 器 SSE 和 TSE 生成 
的 特征 表示 后 ,将 其 输入 关系 抽取 器 C 进行 实体 关系 
抽取 。 关 系 抽取 器 C 由 一 层 全 连接 和 一 个 softmax 分 
类 器 组 成 ,最 后 输出 每 个 输入 样本 在 所 有 关系 上 的 概 


p; = W., w, 


[x]; = tan max, Pj 


率 分 布 。 我 们 将 句子 编码 器 SSE 和 TSE 作为 生成 器 ， 
判别 器 使 用 一 层 全 连接 神经 网 络 和 一 个 sigmoid 激活 
函数 构建 二 元 分 类 器 , 它 接收 生成 器 的 输出 作为 输入 ， 
判别 特征 表示 来 自 SSE 还 是 TSE。 

具体 的 对 抗 训 练 过 程 如 下 :中 首先 ,利用 源 语言 关 
系 抽取 数据 集 预 训练 SSE 和 关系 分 类 器 C, 最 小 化 关 
系 分 类 损失 (公式 9) ;@) 然 后 训练 判别 器 D ,最 小 化 判 
别 器 损失 (公式 10) ,再 在 目标 语言 上 训练 TSE 和 关系 
分 类 器 ,最 小 化 综合 损失 函数 (公式 13 ) ,同时 不 断 迭 
代 过 程 @@ 直 到 模型 收敛 ;@ 最 后 ,如 果 判 别 器 无 法 正确 
分 辨 输入 特征 属于 哪 种 语言 , 则 表明 来 自 TSE 的 输入 
特征 具有 了 语言 适应 性 。 在 成 功 训练 后 ,生成 絮 输 出 
的 特征 表示 既 能 够 进行 准确 的 关系 抽取 ,同时 对 于 不 
同 语言 之 间 , 特 征 表示 的 差异 大 大 减 小 。 下 面具 体 介 
绍 对 抗 训练 过 程 中 模型 的 损失 函数 ,主要 包括 3 类 损 
K: 

一 是 源 语 言 上 的 关系 分 类 损失 。 定 义 SSE 和 关系 
分 类 器 C 的 参数 分 别 为 9, 和 bc ,训练 目标 是 最 小 化 交 
又 箭 损失 函数 ,如 公式 (9) 所 示 : 

Lose (030c) =E osy) -aua LICC CH EXT BETTE 
y) ] 公式 (9) 

在 公式 (9) 中 ,表示 源 语言 上 的 关系 分 类 损 
AEG ,ww) Lo ] 表 示 对 数据 分 布 的 期 望 ,J(p,y) 
为 预测 概率 分 布 与 真实 标签 y ZLIRII S6 CR 101 R K 
数 ,C( 五 (x) ) 表 示 输 入 SSE 的 特征 表示 为 瓦 .(xz) 时 
关系 分 类 器 C 的 最 终 预 测 , (x,,y) 为 模型 的 输入 和 和 输 
出 ,其 中 x, 代表 源 语言 样本 实例 ,y 为 关系 标签 。 

二 是 对 抗 损失 。 对 抗 损失 Lia 用 来 训练 判别 器 正 
确 判 别 特征 表示 来 自 源 语言 还 是 目标 语言 ,定义 判别 
器 D 的 参数 为 9, ,判别 器 的 训练 目标 是 尽 可 能 正确 地 
判别 特征 表示 来 源 , 损 失 函 数 如 公式 (10) 所 示 : 

min Las = EQ usu) dan [log(1 - D(H, (x,;0)))) + 
log D(H, (x,505)) ] 公式 (10) 

在 公式 (10) F, D CH) 为 判别 器 评估 特征 表示 H 
来 自 SSE 还 是 TSE 的 概率 输出 ,有 ,和 ,分别 表示 
SSE FI TSE 输出 的 特征 表示 , 且 x, 代表 源 语言 样本 实 
例 ,*, 代表 词典 翻译 得 到 的 目标 语言 样本 实例 。 

三 是 目标 语言 上 的 关系 分 类 损失 。 定 义 TSE 的 参 
数 为 9,,TSE 的 训练 目标 是 最 小 化 判别 器 正确 判别 特 
征 来 源 的 概率 ,损失 函数 如 公式 (11) 所 示 ,L.(9,) 表 
示 目 标语 言 上 的 判别 损失 。 

L,(6,) =E, aual log D(H,.(%,;0,)) ] 
公式 (11) 


137 


AELE EZ 


$864 35 58 17 Hg. 2020 5£9 月 


ChinaXiv 合 作 期 刊 


定义 关系 分 类 器 C 的 参数 为 bc, 分 类 器 C 的 训练 

H bye IE M HETRIK , JE dg MESE SURE UU BR 

Ti A (12) Bros 4L, (0,,0:) E Hbi A EKSA 

类 损失 。 
L,(06,,0:) 2 Ec saua JCCOT (0,50) ;0c),y) ] 

公式 (12) 

最 后 ,将 公式 (11) 和 公式 (12) 结 合 起 来 ,最 小 化 

联合 损失 ,如 公式 (13) 所 示 , 其 中 pB 是 用 于 调整 判别 损 
失 和 分 类 损失 之 间 权 重 的 平衡 参数 。 

min, o, Le =BL,.(0,) +L,.(0,,0c) 公式 (13) 


4 实验 与 分 析 


4.1 数据 集 

本 为 了 更 好 地 探究 模型 性 能 ,考虑 到 英文 和 中 文 的 
ERIE, 本文 探究 “ 源 语言 英语 - 目标 语言 中 文 " 和 
erp - 目标 语言 英文 "两 种 跨 语言 关系 抽取 
全 萄 。 为 使 研究 更 具有 代表 性 ,选择 在 跨 语言 实体 关 
系 插 到 任务 中 最 为 广泛 使 用 的 ACE 2005 中 英文 关系 
数据 集 "" 。 该 数据 集 来 源 为 报纸 广播. 新闻 专 
博客 等 ,为 非 平行 语 料 , 共 定 义 了 六 大 类 关系 类 
型 \ 分 别 为 PHYS,PART-WHOLE , ART , ORG-AFF , PER- 
sp 和 GEN-AFF( 不 包含 Other) 。 其 中 ,PHYS 表示 地 
MEXR ,PART-WHOLE 表示 部 分 和 整体 关系 ,ART 

示 物 品 所 属 关系 , ORG-AFF 表示 组 织 隶 属 关系 ， 
sso 表示 人 际 交往 关系 ,CEN-AFF 表示 居民 的 宗 
教 释 族 等 隶属 关系 。 在 对 语 料 进行 了 预 处 理 (包括 提 
取 贸 本、 分 句 、 中 文 分 词 ,特征 提取 等 ) 后 ,将 中 英文 语 
料 则 分 成 训练 集 、 验 证 集 和 测试 集 , 数 据 集 的 具体 划分 


情况 见 表 1 。 
R1 ACE 2005 中 英文 语 料 的 数据 描述 
— 英文 (EN) 中 文 (CH) 
训练 集 WER WRR WAR 验证 集 WAR 
PHYS 1 100 278 278 1 192 205 197 
PART-WHOLE 775 162 182 1 649 294 336 
ART 491 96 151 476 97 59 
ORG-AFF | 1472 365 359 1611 226 359 
PER-SOC 438 106 77 465 83 116 
GEN-AFF 512 124 104 1 462 270 199 
总 计 4 788 1131 1151 6 855 1175 1 266 


42 参数 设置 

在 本 实验 中 , 跨 语 言 平行 语 料 获取 模块 使 用 Fast- 
text" 预 训练 的 英文 和 中 文 词 向 量 , 词 向 量 维度 为 300 
维 , 具 体 的 模型 参数 设置 见 表 2。 对抗 适应 关系 抽取 


模块 使 用 上 一 模块 生成 的 300 维 、 大 小 为 10 万 的 共享 
空间 双语 词 向 量 初始 化 模型 ,具体 的 模型 参数 设置 见 
表 3。 


R2 跨 语 言 平行 语 料 获 取 模 块 参数 设置 


模型 名 称 参数 名 称 参数 值 
词典 扩展 法 (有 监督 ) (MUSE_sup) n_refinement 5 
max_vocab 100 000 


初始 双语 词典 大 小 5 000 


扩展 双语 词典 大 小 ”100 000 
词典 扩展 法 (无 监督 ) (MUSE_un) batch_size 32 
epoch 数 5 
迭代 数 /epoch 1 000 000 
optimizer SGD 
max_vocab 100 000 
初始 双语 词典 大 小 0 
扩展 双语 词典 大 小 100 000 
自学 习 法 (无 监督 ) (Vecmap) batch_size 10 000 
max_vocab 100 000 
初始 双语 词典 大 小 0 
扩展 双语 词典 大 小 ”100 000 
表 3 对 抗 适 应 关系 抽取 模块 的 参数 
参数 名 参数 值 
Lo word, emb, dim 300 
pos. emb, dim 20 
entype, emb, dim 30 
Training Setting iteration 100 
shuffle True 
emb, update False 
optimizer Adadelta 
batch, size 100 
Hyperparameters kernel. size 3 
kernel, num 100 
cnn, dropout 0.5 
]stm. hidden, dim 100 
lstm. layer 1 
lstm_dropout 0 
bilstm = True True 
p 0.9 
B 0.5 


4.3 评价 指标 

由 于 跨 语 言 实体 关系 抽取 任务 的 关系 标签 数 为 多 
个 ,属于 多 分 类 任务 ,因此 我 们 采用 Macro-P( 简 写 为 
P) .Macro-R( 简 写 为 R) , Maero-F1 (简写 为 1) 以 及 精 
确 率 Accuracy 作为 评价 指标 。 其 中 ,Macro-P、Macro-R 
和 Macro-Fl 表示 在 多 分 类 任务 中 的 每 个 类 别 上 分 别 
计算 准确 率 P、 召 回 率 R 和 Fl 值 ,再 将 多 个 类 别 下 计 
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449], EX 16, A36. 跨 语 言情 境 下 基于 对 抗 的 实体 关系 抽取 模型 研究 [3]. 图 书 情报 工作 ,2020 ,64(17) :131 7144. 


算得 到 的 值 进行 平均 ,得 到 总 体 值 ; 精 确 率 Accuracy 表 
示 预 测 正确 的 样本 占 总 样本 的 比率 。 
4.4 ”基础 实验 结果 

在 基础 实验 中 ,任务 1 以 英语 为 源 语言 .中文 为 目 
标语 言 (简写 为 EN 一 CH) ;任务 2 以 中 文 为 源 语言 英 
语 为 目标 语言 (简写 为 CH=>EN) 。 在 跨 语言 平行 语 料 
获取 模块 ( CLPCA) ,通过 训练 得 到 的 双语 词典 将 资源 
丰富 的 源 语言 数据 集 翻 译 为 目标 语言 ,同时 使 用 得 到 
的 共享 空间 中 的 双语 词 向 量 对 下 一 模块 关系 抽取 模型 
的 输入 样本 单词 进行 初始 化 。 在 对 抗 适应 关系 抽取 模 
块 (AARE) ,用 源 语言 训练 集 和 词典 翻译 得 到 的 目标 
语言 训练 集 ,训练 跨 语言 对 抗 关系 抽取 模型 ,得 到 测试 
集 上 的 实验 结果 。 我 们 将 本 文 模型 与 B，W，Zou 
等 提出 的 基于 对 抗 学 习 关系 抽取 方法 及 胡 亚 杭 
E? 提出 的 基于 平行 语 料 获取 的 关系 抽取 方法 进行 
对 也。 除 此 之 外 ,我 们 对 目标 语言 进行 单 语言 的 实体 
次 乔 抽 取 , 并 将 其 实验 结果 作为 我 们 的 模型 上 限 进行 
对 也。 具体 实验 结果 如 表 4、 表 5 所 示 。 


Accuracy P R F1 
0.9036 0.9164 0.9094 0.9129 
/ 0.6873 0.7235 0.7050 


的 平行 语 料 获取 方法 / 


0.813 0 0.812 0 0.812 0 
jiao) 

MUSE sup +CNN + GAN 0.8633 0.878 1 0.8820 0.8801 
MUSE un + CNN + GAN 0.797 8 0.855 5 0.810 5 0.8324 
Wap +CNN + GAN 0.853 9 0.858 3 0.856 3 0.857 3 
Mok up +LSTM + GAN 0.8570 0.8707 0.8628 0.8667 
MUSE un + LSTM + GAN 0.812 8 0.845 6 0.834 7 0.840 1 
Vecmap + LSTM + GAN 0.843 6 0.839 5 0.853 6 0.846 5 


X5 跨 语言 对 抗 关 系 抽取 实验 结果 ( CH 一 EN) 


Model ( CHEN) Accuracy P R F1 
CNN-EN 0.9114 0.8971 0.9037 0.9004 
传统 的 对 抗 学 习 方法 (B. / 0.6051 0.7374 0.7156 
W. Zou 等 [35] ) 
传统 的 平行 语 料 获取 方法 / 0.80010 0.7980 0.7990 
CB RA 907) 

MUSE, sup + CNN + GAN 0.8202 0.8175 0.8354 0.8263 
MUSE un + CNN + GAN 0.7345 0.7866 0.7835 0.7850 
Vecmap * CNN + GAN 0.8410 | 0.8284 0.8426 0.8355 
MUSE sup + LSTM + GAN 0.8454 0.8360 0.8485 0.8422 
MUSE un + LSTM + GAN 0.7376 | 0.7870 0.7837 0.7854 
Vecmap + LSTM + GAN 0.8262 0.8229 0.8239 0.8234 


从 表 4 可 以 看 出 ,在 源 语 言 英语 - 目标 语言 中 文 
(ENS CH) 的 实体 关系 抽取 任务 上 ,MUSE_sup + CNN 
+ GAN 的 模型 表现 最 好 ,Fl 值 为 0.880 1 ,距离 中 文 单 
语言 实体 关系 抽取 上 限 仅 3.28% 。 与 传统 的 基于 对 
抗 学 习 的 跨 语言 关系 抽取 模型 ( 表 4 第 2 行 ) 和 传统 的 
基于 平行 语 料 获 取 的 跨 语言 关系 抽取 模型 ( 表 4 第 3 
行 ) 相 比 ,本 文 的 模型 表现 有 较 大 提升 ,表明 我 们 提出 
的 CLARE 框架 能 够 有 效 地 对 资源 稀缺 的 语言 进行 关 
系 抽取 ,显著 提升 跨 语 言 实体 关系 抽取 的 效果 。 针 对 
CLPCA 模块 ,在 三 种 词典 翻译 方法 (MUSE_sup .MUSE_ 
un 和 Vecmap) 中 ,MUSE_sup 模型 的 表现 最 好 ,在 CNN 
+ GAN 模型 下 Fl 值 比 MUSE un 和 Vecmap 模型 分 别 
高 出 4.77% 和 2.28% 。 同 时 ,有 监督 模型 表现 优 于 无 
监督 模型 ,说 明 在 词典 翻译 过 程 中 ,种 子 词典 能 够 帮助 
模型 学 习 正确 的 双语 映射 ,更 好 地 进行 词典 扩展 ,因此 
引入 适当 的 外 部 知识 有 助 于 模型 训练 。 在 CLPCA 模 
块 采 用 相同 方法 时 ,比较 AARE 模块 的 网 络 结构 可 以 
发 现 :在 多 数 情况 下 (MUSE_sup 和 Vecmap ) , CNN 的 
表现 优 于 LSTM ,Fl 值 分 别 高 出 1.34% 和 1.08% ;在 少 
数 情 况 下 (MUSE_un) ,CNN 表现 略 低 于 LSTM 。 

从 表 5 可 以 看 出 ,在 源 语言 中 文 - 目标 语言 英语 
(CH 一 EN ) 的 实体 关系 抽取 任务 上 ,MUSE_sup + 
LSTM + GAN 的 模型 表现 最 好 ,Fl 值 为 0.842 2 , 与 英 
文 单 语言 实体 关系 抽取 上 限 相差 5. 82% 。 与 传统 的 
基于 对 抗 学 习 的 跨 语 言 关系 抽取 模型 ( 表 5 第 2 行 ) 
和 传统 的 基于 平行 语 料 获取 的 跨 语言 关系 抽取 模型 
( 表 5 第 3 行 ) 相 比 ,本 文 的 模型 表现 同样 有 较 大 提 
升 ,表明 了 CLARE 框架 在 跨 语言 实体 关系 抽取 任务 
上 的 有 效 性 。 同 时 ,CLPCA 模块 MUSE_sup 和 Vec- 
map 的 模型 表现 比较 接近 ,MUSE_un 模型 表现 最 差 ， 
它 的 Fl 值 远 远 低 于 Vecmap 模型 ,表明 无 监督 模型 
中 Vecmap 的 无 监督 效果 优 于 MUSE_un 模型 。 此 外 ， 
同样 在 CLPCA 模块 的 方法 相同 时 ,比较 AARE 模块 
的 网 络 结构 可 以 发 现 :在 目标 语言 为 中 文 时 ,多 数 情 
况 下 (MUSE_sup 和 MUSE_un) , LSTM 的 表现 优 于 
CNN ,Fl 值 分 别 高 出 1.59% 和 0.04% ,在 Vecmap 模 
型 下 ,CNN 表现 更 好 。 

4.5 扩展 实验 结果 

在 扩展 实验 部 分 ,探究 模型 结构 .共享 空间 词 向 量 
微调 .不 同 大 小 的 双语 词典 进行 词典 翻译 以 及 不 同 大 
小 的 训练 数据 集 对 跨 语 言 实体 关系 抽取 效果 的 影响 ， 
同时 将 模型 结果 与 不 同 大 小 数据 集 的 有 监督 实体 关系 
抽取 模型 结果 进行 比较 。 
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4.5.1 模型 结构 对 跨 语 言 实体 关系 抽取 效果 的 影响 
为 了 探究 模型 对 抗 部 分 对 跨 语言 实体 关系 抽取 效 
果 的 影响 ,我 们 在 ENS CH 任务 上 固定 跨 语言 平行 语 
料 获 取 模 块 ,将 对 抗 适 应 关系 抽取 模块 的 双语 对 抗 部 
分 去 除 , 仅 使 用 CNN 模型 在 词典 翻译 得 到 的 目标 语言 


训练 集 上 进行 关系 抽取 ,比较 对 抗 去 除 前 后 在 MUSE_ 


sup, MUSE un 和 Vecmap 3 种 模型 上 评价 指标 的 变化 


情况 。 实 验 结 果 如 表 6 所 示 : 
表 6 模型 结构 对 实验 结果 的 影响 

Model ( ENSCH) Accuracy P R F1 
MUSE sup + CNN + GAN 0. 863 3 0.878 1 0. 882 0 0.880 1 
MUSE sup + CNN 0.861 8 0.875 5 0.868 3 0.8719 
MUSE un + CNN + GAN 0.797 8 0.855 5 0.810 5 0.8324 
MUSE un * CNN 0.797 0 0.816 6 0.835 2 0.825 8 
- * CNN + GAN 0.853 9 0.858 3 0.856 3 0. 857 3 
0.846 0 0.8526 0.865 8 0.859 2 

出 ,在 MEA ains is MUSE 


1] } 别 下 降 了 0. 82% fll O. 6696 ; ,而 对 于 » 

AO DURER ER F1 值 提 升 了 0. 1996 ,但 Accura- 
KE f 0.7996 ,考虑 到 数据 不 平衡 对 Fl 值 的 影 
J 表现 有 所 du AS 对 抗 部 分 


p 


n 
iE 语言 实 


体 关 系 抽取 


AEN 

rT 关系 抽取 模块 的 模型 训练 ,使 
得 目标 语 言 关 系 抽 取 模 型 具有 语言 适应 性 ,我 们 的 模 
型 使 用 前 一 模块 得 到 的 双语 共享 空间 词 向 量 对 单词 向 


量 进 行 初始 化 ,并 在 之 后 的 模型 训练 过 程 中 保持 词 向 
量 不 变 。 因 此 ,我们 在 ENSCH 任务 上 进行 了 词 向 量 
微调 情况 下 的 对 比 实验 ,探究 共享 空间 词 向 量 微调 对 


跨 语言 实体 关系 抽取 效果 的 有 影响。 实验 结果 如 表 7 
所 示 : 
表 7 共享 空间 词 向 量 微调 对 实验 结果 的 影响 
Model (EN 一 CH,CNN + GAN) Accuracy P R F1 
MUSE_sup + 不 变 0.863 3 0.878 1 0.882 0 0.880 1 
MUSE_sup + 微调 0.852 3 0.877 2 0.8712 0.874 2 
MUSE un + 不 变 0.797 8 0.855 5 0.810 5 0.8324 
MUSE un + 微调 0.765 4 0.858 9 0.8138 0.835 8 
Veemap + 不 变 0.853 9 0.858 3 0.856 3 0.857 3 
Veemap + 微调 0.838 1 0.849 7 0.859 7 0.854 7 


从 表 7 可 以 看 出 ,总 体 来 说 ,保持 共享 空间 词 向 量 
不 变 能 够 较为 显著 地 提高 模型 表现 。 具 体 而 言 , 对 于 
MUSE_sup 和 Vecmap 方法 来 说 , Accuracy 值 分 别 有 
1.10% 和 1.58% 的 提高 ;对 于 MUSE_un 模型 来 说 ,Fl 
值 有 略微 下 降 ,但 Accuracy 值 提 高 了 3.24% 。 这 说 明 
训练 过 程 中 词 向 量 的 微调 可 能 会 导致 共享 空间 信息 的 
丢失 ,从 而 降低 模型 表现 。 
4.5.3 双语 词典 大 小 对 跨 语言 实体 关系 抽取 效果 的 
影响 


模型 的 跨 语 言 平 行 语 料 获 取 模 块 通过 生成 双语 词 
典 , 对 源 语 言 数据 集 进 行 词典 翻译 ,得 到 目标 语言 的 训 
练 数 据 集 。 为 了 探究 双语 词典 大 小 对 跨 语言 实体 关系 
抽取 效果 的 影响 ,我 们 在 ENSCH 任务 的 MUSE_sup + 
CNN + GAN 模型 上 ,使 用 不 同 大 小 双语 词典 翻译 的 数 
据 集训 练 模型 。 具 体 实验 结果 如 表 8 所 示 : 

表 8 不 同 大 小 的 双语 词典 对 实验 结果 的 影响 


Model (ENS CH, 


MUSE, sup + CNN + GAN) E: ? H n 
100 000 0.8633 0.8781 0.8820 0.8801 
80 000 0.8610 0.8748 0.8648 0.8698 
60 000 0.8491 0.8615 0.8668 0.8642 
40 000 0.8555 0.8703 0.8654 0.8678 
20 000 0.8507 0.8641 0.8653 0.8647 
10 000 0.8452 0.8535 0.8658 0.8596 


由 表 8 可 以 看 出 ,在 ENS CH 任务 的 MUSE_sup + 
CNN + GAN 模型 上 ,双语 词典 大 小 分 别 设置 为 
100 000 ,80 000 .60 000 .40 000 .20 000 和 10 000 , 当 双 
语词 由 大 小 为 100 000 时 ,模型 结果 最 优 ,Fl 值 为 
0.880 1; 当 双语 词典 大 小 为 10 000 时 ,模型 结果 最 差 ， 
F1 值 为 0.859 6。 总 体 来 看 , 随 着 双语 词典 大 小 的 增 
加 ,Fl 值 蛙 整体 上 升 趋 势 。 实 验 结 果 表 明 , 双 语词 典 
大 小 越 大 ,包含 的 跨 语言 知识 也 越 多 ,从 而 词典 翻译 得 
到 的 数据 集 更 准确 , 跨 语言 实体 关系 抽取 模型 的 性 能 
也 越 好 。 值 得 说 明 的 是 , 当 双 语词 典 大 小 为 60 000 时 ， 
模型 的 Fl 值 (0. 864 2) 较 词典 大 小 为 40 000 时 
(0.867 8) 略微 有 所 下 降 。 可 能 的 原因 在 于 ,一 方面 ， 
当 双 语词 典 从 40 000 增加 到 60 000 时 ,词典 未 能 有 效 
提升 双语 词汇 的 覆盖 面 ( 即 新 增 的 词汇 并 未 反映 在 测 
试 数据 集中 ) ,从 而 导致 结果 并 无 提升 ; 另 一 方面 ,由 于 
双语 词典 的 扩大 ,增加 了 模型 训练 的 复杂 度 , 从 而 导致 
模型 效果 略 有 下 降 。 这 表明 ,在 跨 语 言 研 究 的 实际 应 
用 中 , 仍 需 综 合 考虑 训练 复杂 度 及 双语 词汇 覆盖 面 ,将 
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词典 规模 控制 在 合理 范围 ” 。 

4.5.4 训练 集 大 小 对 跨 语言 实体 关系 抽取 效果 的 影响 
为 了 探究 不 同 训练 集 的 大 小 对 跨 语言 实体 关系 抽 

取 效 果 的 影响 ,我 们 在 EN CH 任务 的 MUSE_sup + 

CNN + GAN 模型 上 ,使 用 不 同 大 小 的 双语 平行 语 料 训 

练 模型 。 对 于 每 种 语言 来 说 ,训练 语 料 大 小 设置 为 

500 -4 500 ,具体 实验 结果 如 图 2 所 示 : 


MACRO-F1 


500 1000 1500 2000 2500 3000 3500 4000 4500 


X. 训练 数据 集 大 小 

C m2 不 同 大 小 的 训练 数据 集 对 实验 结果 的 影响 

CHE 2 可 知 ,总 体 来 看 , 随 着 训练 数据 集 大 小 的 增 
MEL 值 叶 上升 趋势 ,模型 表现 在 训练 数据 集 大 小 为 
4§00 时 最 好 。 具 体 而 言 , 在 训练 数据 集 由 500 增加 到 
1 的 过 程 中 ,模型 表现 有 显著 提升 ,但 在 数据 集 大 
/|y2,000 时 有 一 定 下 降 ,之 后 由 2 000 增加 到 4 500 过 
BED, FI 值 缓慢 提升 。 这 表明 随 着 训练 数据 集 的 增 
元 潮 期 模型 表现 提升 较 大 ,后 期 提升 较为 缓慢 甚至 咯 
AT. 
Ans 与 有 监督 实体 关系 抽取 模型 的 结果 比较 

己 在 本 文 研究 中 ,我 们 假设 源 语言 为 语 料 丰 富 的 语 
言 E 目 标语 言语 料 相对 缺乏 ,在 完全 无 监督 情境 下 ,对 
目 旺 语言 进行 实体 关系 抽取 。 为 了 与 有 监督 情境 下 单 
语言 实体 关系 抽取 模型 (CNN-CH) 进行 比较 ,我 们 针 
对 EN 一 CH 任务 的 MUSE_sup + CNN + GAN 模型 (EN 
二 CH,，MUSE_sup + CNN + GAN) ,使 用 不 同 大 小 的 中 
文 标注 训练 集训 练 。 对 比 实验 结果 如 图 3 所 示 : 


——CNN-CH —E—EN=CH,MUSE(sup)+CNN+GAN 
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图 3 与 有 监督 实体 关系 抽取 模型 的 结果 比较 


从 图 3 可 以 看 出 ,从 200 开始 增加 中 文 有 监督 标 
注 数 据 , 每 次 增加 200 ,Fl 值 逐 渐 提高 且 逐 渐变 缓 , 直 


到 数据 量 达 到 2 000 时 ,有 监督 实体 关系 抽取 的 模型 
表现 超过 我 们 的 完全 无 监督 模型 。 这 表明 我 们 的 完全 
无 监督 模型 与 有 监督 模型 相 比 ,可 以 取得 相对 可 比 的 
表现 ,近似 相当 于 1 800 条 标注 数据 集 下 有 监督 模型 
的 性 能 。 
4.6 讨论 

根据 上 述 实 验 结果 ,我 们 在 CLARE 框架 基础 上 探 
究 各 个 子 模型 的 效果 。 在 源 语言 英语 - 目标 语言 中 文 
(ENS CH) 和 源 语 言 中 文 - 目标 语言 英语 (CH 一 EN ) 
的 实体 关系 抽取 任务 上 ,总 体 来 说 ,有 监督 的 词典 扩展 
法 的 模型 表现 最 好 ,无 监督 的 词典 扩展 法 的 模型 表现 
最 差 , 且 无 监督 模型 中 自学 习 法 优 于 词典 扩展 法 。 有 
监督 词典 扩展 法 表现 优 于 无 监督 模型 ,表明 在 词典 翻 
译 过 程 中 ,种 子 词典 能 够 帮助 模型 学 习 正 确 的 双语 映 
射 , 从 而 更 好 地 进行 词典 扩展 。 
针对 问题 1( 在 跨 语言 关系 抽取 模型 中 ,模型 结构 
对 于 关系 抽取 效果 是 否 有 显著 影响 ?) ,从 模型 结构 对 
跨 语言 实体 关系 抽取 效果 的 影响 可 以 看 出 ,在 模型 中 
加 入 对 抗 部 分 ,能 够 提高 有 监督 和 无 监督 的 词典 扩展 
法 以 及 无 监督 的 自学 习 法 3 种 方法 下 的 模型 表现 。 其 
中 ,对 于 自学 习 法 来 说 ,对 抗 部 分 带 来 的 提高 较 小 。 这 
表明 模型 对 抗 部 分 对 于 词典 扩展 法 有 更 大 的 帮助 ,对 
于 已 经 包含 对 抗 思想 的 自学 习 法 来 说 ,再 次 使 用 对 抗 
并 没有 取得 更 好 的 结果 。 

针对 问题 2( 在 跨 语 言 对 抗 关系 抽取 模型 训练 过 
程 中 ,如 何 使 用 共享 空间 双语 词 向 量 初始 化 词 宜 人 ? 
词 租 人 是 否 微调 对 模型 表现 有 哪些 影响 ?) ,从 共享 空 
间 词 向 量 微 调 对 跨 语言 实体 关系 抽取 效果 的 影响 可 以 
看 出 ,在 训练 过 程 中 ,保持 对 抗 适 应 关系 抽取 模块 共享 
空间 词 向 量 不 变 ,能 够 提高 有 监督 和 无 监督 的 词典 扩 
展 法 以 及 无 监督 的 自学 习 法 3 种 方法 下 的 模型 表现 ， 
其 中 ,对 自学 习 法 的 提高 最 为 明显 。 这 说 明 训练 过 程 
中 词 向 量 的 微调 可 能 会 导致 共享 空间 信息 的 丢失 ,使 
得 源 语 言 和 目标 语言 的 句子 编码 更 难以 映射 到 同一 空 
间 中 且 位 置 相近 ,导致 模型 性 能 降低 。 

针对 问题 3( 在 跨 语 言 平行 语 料 获 取 模 块 , 如 何 合 
理 地 确定 源 语言 和 目标 语言 双语 词典 的 规模 ?双语 词 
典 的 规模 是 否 越 大 越 好 ?) ,从 不 同 大 小 的 双语 词典 对 
跨 语言 实体 关系 抽取 效果 的 影响 可 以 看 出 , 随 着 双语 
词典 的 增 大 , 跨 语言 对 抗 关系 抽取 模型 的 性 能 总 体 上 
呈现 逐渐 变 好 的 趋势 。 由 于 双语 词典 越 大 ,包含 源 语 
言 和 目标 语言 间 的 信息 越 多 ,使 用 词典 翻译 将 源 语言 
数据 集 翻译 到 目标 语言 也 更 加 准确 。 在 双语 词典 的 规 
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模 达 到 一 定 程度 后 , 跨 语言 实体 关系 抽取 的 性 能 增长 
缓慢 。 这 表明 ,在 实际 应 用 中 ,采用 规模 适度 且 高 度 对 
齐 的 双语 词典 即 可 有 效 提高 跨 语 言 实体 关系 抽取 的 效 


FH 
Zo 


针对 问题 4( 在 跨 语言 实体 关系 抽取 任务 中 ,如 何 
合理 地 确定 源 语言 和 目标 语言 训练 数据 的 规模 ? 训练 
数据 的 规模 是 否 越 大 越 好 ?) ,从 不 同 大 小 的 训练 数据 
集 对 跨 语 言 实体 关系 抽取 效果 的 影响 可 以 看 出 , 当 双 
语 平行 训练 语 料 每 种 语言 大 小 在 500 -4 500 之 间 , 随 
着 训练 集 大 小 的 增加 , 跨 语 言 实 体 关 系 抽 取 的 效果 呈 
现 总 体 上 升 趋势 ,上 且 在 前 期 模型 表现 提高 显著 ,在 训练 
集 增加 到 1 500 之 后 ,模型 表现 的 提高 逐渐 趋 于 平缓 
甚至 有 所 下 降 。 实 验 结果 表明 在 特定 的 阔 值 下 (本 文 


为 -500 左右 ) ,增加 训练 数据 能 够 更 有 效 地 提高 跨 语 


= | 


TRARRE. 

加 针对 问题 5( 与 有 监督 的 目标 语言 实体 关系 抽取 
模型 相 比 ,无 监督 模型 的 表现 是 否 存 在 显著 差异 ?) ,将 
我 三 完 全 无 监督 的 跨 语 言 对 抗 关系 抽取 模型 与 有 监督 
关系 抽取 模型 进行 对 比 ,使 用 不 同 大 小 的 中 文 标注 语 
料 测 练 中 文 实体 关系 抽取 模型 。 从 实验 结果 可 以 看 
由 \ 随 着 中 文 标注 数据 量 的 增 大 ,中 文 单 语言 实体 关系 
搬 取 效果 不 断 提高 且 逐 渐变 缓 ,直到 数据 量 达到 2 000 
时 ,有 监督 实体 关系 抽取 的 模型 表现 超过 无 监督 模型 。 
表明 无 监督 模型 与 有 监督 模型 相 比 ,可 以 取得 相对 可 
成 本 表现 ,在 本 文 实验 配置 下 无 监督 模型 与 1 800 条 
标注 数据 集 下 有 监督 模型 的 性 能 接近 。 


E EN 


为 了 提升 跨 语言 情境 下 低 资源 语言 实体 关系 抽取 
模型 的 性 能 ,本文 提 出 了 器 语言 对 抗 关系 抽取 框架 ,从 
跨 语言 平行 语 料 获 取 和 对 抗 适 应 关系 抽取 两 个 方面 进 
行 句子 级 别 的 跨 语言 实体 关系 抽取 。 跨 语言 平行 语 料 
获取 模块 是 通过 词典 扩展 或 自学 习 的 方法 将 源 语言 关 
系 抽 取 数 据 集 转换 为 目标 语言 数据 集 , 解 决 目 标语 言 
数据 集 缺 乏 的 问题 ;对 抗 适应 关系 抽取 模块 则 是 利用 
对 抗 特征 适应 将 源 语 言 的 特征 表示 迁移 给 目标 语言 ， 
再 利用 训练 得 到 的 目标 语言 关系 抽取 网 络 对 目标 语言 
进行 关系 分 类 。 在 " 源 语言 英语 - 目标 语言 中 文 ” 和 
“ 源 语言 中 文 - 目标 语言 英语 ”两 种 跨 语 言 关 系 抽取 
任务 上 的 实验 结果 表明 ,该 模型 在 两 种 跨 语言 关系 抽 
取 任 务 上 的 表现 较 好 ,两 个 任务 上 最 优 模型 的 Fl 值 分 
别 为 0.880 1 和 0.842 2, 这 表明 本 文 提 出 的 跨 语 言 实 
体 关系 抽取 框架 能 显著 提升 低 资源 语言 实体 关系 抽取 


的 效果 。 研 究 结果 对 于 改进 跨 语 言情 境 下 的 关系 抽取 
模型 ,促进 实体 关系 抽取 研究 在 情报 学 领域 的 应 用 有 具 
有 重要 意义 。 

受制 于 实验 条 件 ,本 文 的 工作 还 存在 一 些 不 足 , 在 
后 续 研 究 中 ,我 们 将 开展 以 下 研究 :中 进一步 探究 在 半 
监督 的 情境 下 , 仅 以 加 入 部 分 目标 语言 标注 数据 ,通过 
多 任务 学 习 或 模型 融合 的 方式 将 目标 语言 知识 与 跨 语 
言 知 识 相 结合 ,提高 跨 语言 实体 关系 抽取 的 模型 表现 ; 
@) 将 本 文 的 跨 语 言 系统 应 用 到 更 多 语言 情境 下 的 实体 
关系 抽取 任务 中 ,解决 更 多 低 资 源 语言 的 实体 关系 抽 
取 问 题 。 
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GD Abstract; | Purpose/significance | From the perspective of entity relation extraction, the knowledge acquisition 
k in a single language context is extended to a cross-language context, and the relation extraction effect of low-re- 
(source languages is improved. | Method/process | This paper proposed a Cross-Lingual Adversarial Relation Extrac- 
tign ( CLARE ) framework, which decomposed cross-lingual relation extraction into parallel corpus acquisition and 
oo adaptation relation extraction. Through dictionary expansion or self-learning methods , the source language 
telation extraction data set was converted into the target language data set. On this basis, the feature representation of 
fhe source language was transferred to the target language using adversarial feature adaptation, and then the target 
-language relation extraction network obtained by training was used to classify the target language. | Result/conclu- 
n | The method in this paper is applied to the English-Chinese and Chinese-English cross-lingual relation extrac- 
tion task based on the ACE2005 multilingual dataset. The Macro-Fl values of the optimal models on the two tasks are 
0. 880 1 and 0. 842 2 respectively , indicating that the proposed CLARE framework for cross-language adversarial rela- 
tion extraction can significantly improve the effect of low-resource language entity relation extraction. The research re- 
sults are of great significance for improving the relation extraction model in the cross-lingual context and promoting the 
application of entity relation extraction research in the field of information science. 
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